EvoClass
IA012
Approfondissement des grands modèles linguistiques
Agents autonomes, RLHF et alignement de la sécurité
Objectifs d'apprentissage
- Analyser les composants architecturaux des agents GUI, y compris les modules de planification, de prise de décision et de réflexion dans les systèmes multi-agents.
- Expliquer les mécanismes de l'apprentissage par renforcement (RL) et du RLHF, notamment le rôle des modèles de récompense et de PPO dans l'alignement du comportement des agents sur les valeurs humaines.
- Évaluer les risques liés à la sécurité et les problèmes de fiabilité des agents autonomes, y compris les erreurs hors distribution (OOD), les attaques de contournement et les distractions environnementales.